潜在的Dirichlet分配(LDA)如潜在的概率主题模型已延伸到双语设置。其中几个扩展中的基本建模假设是输入语料库是文档对的形式,其成分文件共享单个主题分布。然而,对于类似的小型公司而言,这种假设是强大的,这些数据在基本上类似的文件,即又是最常见的或易于获得的。在本文中,我们通过提出配对的文档来具有分开的,但绑定的主题分布来放松此假设。 %与配对文件的分布之间的绑定机制。我们建议界限的强度应该取决于每对对的语义相似性。估计以不同语言编写的文档的相似性,我们使用与浅层神经网络学习的交叉语言嵌入式。我们通过扩展两个主题模型来评估所提出的绑定机制:LDA的双语适应,该LDA假定单词袋输入和模型,该模型包含语义相干段的边界的形式的文本结构的一部分。为了评估新颖的主题模型的表现,我们对五种双语,英语文件的同类实验进行了内在和外在的实验,用法语,德语,意大利语,西班牙语和葡萄牙文档进行了英语文件的五种双语。结果展示了通过归一化的点亮互信息测量的主题一致性的方法的效率,以及通过困惑测量的泛化性能,并且在每个语言的交叉文档检索任务中的平均互惠级别方面对。
translated by 谷歌翻译